19. september 2025Norsk

Lås opp kraften i Pandas GroupBy for dataanalyse. Denne guiden utforsker aggregerings- og transformasjonsteknikker med praktiske eksempler for internasjonale data.

Mestring av Pandas GroupBy-operasjoner: Aggregering vs. Transformasjon

Pandas, hjørnesteinen i datamanipulering i Python, tilbyr et kraftig verktøy for å analysere og forstå data: GroupBy-operasjonen. Denne funksjonen lar deg segmentere dataene dine i grupper basert på felles karakteristikker og deretter anvende funksjoner på disse gruppene, noe som avslører innsikt som ellers ville forbli skjult. Denne artikkelen dykker dypt ned i to sentrale GroupBy-operasjoner: aggregering og transformasjon, og gir praktiske eksempler og forklaringer som passer for datafagfolk over hele verden.

Forstå GroupBy-konseptet

I kjernen er GroupBy en prosess som involverer tre hovedtrinn: å dele dataene inn i grupper basert på ett eller flere kriterier, å anvende en funksjon på hver gruppe uavhengig, og å kombinere resultatene til en ny datastruktur. Denne "split-apply-combine"-strategien er et grunnleggende konsept innen dataanalyse og gir et fleksibelt rammeverk for å utforske komplekse datasett.

Kraften til GroupBy ligger i dens evne til å håndtere ulike datatyper og strukturer, noe som gjør den anvendelig på tvers av ulike domener. Enten du analyserer salgsdata fra flere regioner, sensoravlesninger fra forskjellige enheter, eller sosiale medieaktiviteter på tvers av demografier, kan GroupBy hjelpe deg med å trekke ut meningsfull innsikt.

Aggregering: Oppsummering av data innenfor grupper

Aggregering er prosessen med å beregne oppsummeringsstatistikk for hver gruppe. Denne statistikken gir en konsis oversikt over gruppens egenskaper, slik at du kan sammenligne og kontrastere ulike segmenter av dataene dine. Vanlige aggregeringsfunksjoner inkluderer:

sum(): Beregner summen av verdier innenfor hver gruppe.
mean(): Beregner gjennomsnittsverdien innenfor hver gruppe.
median(): Beregner medianverdien innenfor hver gruppe.
min(): Finner minimumsverdien innenfor hver gruppe.
max(): Finner maksimumsverdien innenfor hver gruppe.
count(): Teller antall ikke-null-verdier innenfor hver gruppe.
size(): Returnerer størrelsen på hver gruppe (inkludert null-verdier).
std(): Beregner standardavviket innenfor hver gruppe.
var(): Beregner variansen innenfor hver gruppe.

Praktiske eksempler på aggregering

La oss vurdere et datasett med internasjonale salgsdata for et hypotetisk e-handelselskap. Dataene inkluderer informasjon om produktkategori, salgsland og salgsbeløp.

            
import pandas as pd

# Sample data
data = {
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Clothing', 'Home Goods', 'Electronics', 'Clothing', 'Home Goods'],
    'Country': ['USA', 'UK', 'Canada', 'USA', 'Germany', 'UK', 'Canada', 'Germany'],
    'Sales': [100, 50, 75, 60, 80, 90, 45, 70]
}

df = pd.DataFrame(data)

print(df)

Dette vil gi følgende utdata:


     Category  Country  Sales
0  Electronics      USA    100
1     Clothing       UK     50
2  Electronics   Canada     75
3     Clothing      USA     60
4   Home Goods  Germany     80
5  Electronics       UK     90
6     Clothing   Canada     45
7   Home Goods  Germany     70

Eksempel 1: Beregning av totalsalg per kategori

For å beregne totalsalget for hver produktkategori kan vi bruke groupby()-metoden etterfulgt av sum()-aggregeringsfunksjonen.

            
category_sales = df.groupby('Category')['Sales'].sum()
print(category_sales)

Dette vil gi følgende utdata:


Category
Clothing       155
Electronics    265
Home Goods     150
Name: Sales, dtype: int64

Eksempel 2: Beregning av gjennomsnittlig salg per land

På samme måte, for å beregne gjennomsnittlig salg per land, kan vi bruke mean()-aggregeringsfunksjonen.

            
country_sales = df.groupby('Country')['Sales'].mean()
print(country_sales)

Dette vil gi følgende utdata:


Country
Canada     60.0
Germany    75.0
UK         70.0
USA        80.0
Name: Sales, dtype: float64

Eksempel 3: Bruk av flere aggregeringsfunksjoner

Pandas lar deg anvende flere aggregeringsfunksjoner samtidig ved å bruke agg()-metoden. Dette gir en omfattende oppsummering av gruppens egenskaper.

            
category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', 'median', 'count'])
print(category_summary)

Dette vil gi følgende utdata:


             sum   mean  median  count
Category                               
Clothing       155  51.666667    50.0      3
Electronics    265  88.333333    90.0      3
Home Goods     150  75.000000    75.0      2

Eksempel 4: Egendefinerte aggregeringsfunksjoner

Du kan også definere dine egne egendefinerte aggregeringsfunksjoner ved hjelp av lambda-uttrykk eller navngitte funksjoner. Dette lar deg beregne spesifikke statistikker som ikke er tilgjengelige i standard aggregeringsfunksjonene.

            
# Egendefinert funksjon for å beregne spennvidden (maks - min)
def custom_range(x):
    return x.max() - x.min()

category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', custom_range])
print(category_summary)

Dette vil gi følgende utdata:


             sum   mean  custom_range
Category                              
Clothing       155  51.666667          15
Electronics    265  88.333333          25
Home Goods     150  75.000000          10

Transformasjon: Modifisering av data innenfor grupper

Transformasjon innebærer derimot å modifisere dataene innenfor hver gruppe basert på en viss beregning. I motsetning til aggregering, som returnerer en oppsummert verdi for hver gruppe, returnerer transformasjon en verdi for hver rad i de originale dataene, men verdien beregnes basert på gruppen raden tilhører. Transformasjonsoperasjoner bevarer den originale indeksen og formen til DataFrame.

Vanlige bruksområder for transformasjon inkluderer:

Standardisering av data innenfor hver gruppe.
Beregning av rangering eller persentil innenfor hver gruppe.
Fylling av manglende verdier basert på gruppestatistikk.

Praktiske eksempler på transformasjon

La oss fortsette med våre internasjonale salgsdata. Vi kan anvende transformasjon for å utføre beregninger relatert til salgstallene innenfor hvert land.

Eksempel 1: Standardisering av salgsdata innenfor hvert land (Z-score)

Standardisering av data innebærer å transformere verdiene slik at de har et gjennomsnitt på 0 og et standardavvik på 1. Dette er nyttig for å sammenligne data på tvers av ulike skalaer og distribusjoner. Vi kan bruke transform()-metoden sammen med et lambda-uttrykk for å oppnå dette.

            
from scipy.stats import zscore

df['Sales_Zscore'] = df.groupby('Country')['Sales'].transform(zscore)
print(df)

Dette vil gi følgende utdata:


     Category  Country  Sales  Sales_Zscore
0  Electronics      USA    100      1.000000
1     Clothing       UK     50     -1.000000
2  Electronics   Canada     75      1.000000
3     Clothing      USA     60     -1.000000
4   Home Goods  Germany     80      1.000000
5  Electronics       UK     90      1.000000
6     Clothing   Canada     45     -1.000000
7   Home Goods  Germany     70     -1.000000

Kolonnen Sales_Zscore inneholder nå de standardiserte salgsverdiene for hvert land. Verdier over 0 er over gjennomsnittssalget for det landet, og verdier under 0 er under gjennomsnittet.

Eksempel 2: Beregning av salgsrangering innenfor hver kategori

For å beregne rangeringen av hvert salg innenfor sin kategori, kan vi bruke rank()-metoden innenfor transform()-funksjonen.

            
df['Sales_Rank'] = df.groupby('Category')['Sales'].transform(lambda x: x.rank(method='dense'))
print(df)

Dette vil gi følgende utdata:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    100      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA     60     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

Kolonnen Sales_Rank indikerer rangeringen av hvert salg innenfor sin respektive kategori. Argumentet `method='dense'` sikrer at påfølgende rangeringer tildeles uten hull.

Eksempel 3: Fylling av manglende verdier basert på gruppegjennomsnitt

La oss introdusere noen manglende verdier i salgsdataene og deretter fylle dem basert på gjennomsnittlig salg for hvert land.

            
import numpy as np

# Introduser manglende verdier
df.loc[[0, 3], 'Sales'] = np.nan

print(df)

# Fyll manglende verdier basert på landsgjennomsnitt
df['Sales_Filled'] = df['Sales'].fillna(df.groupby('Country')['Sales'].transform('mean'))
print(df)

Den opprinnelige DataFrame med manglende verdier ville se slik ut:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    NaN      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA    NaN     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

Og etter å ha fylt de manglende verdiene:


     Category  Country  Sales  Sales_Zscore  Sales_Rank  Sales_Filled
0  Electronics      USA    NaN      1.000000         3.0          NaN
1     Clothing       UK     50     -1.000000         2.0           50.0
2  Electronics   Canada     75      1.000000         1.0           75.0
3     Clothing      USA    NaN     -1.000000         3.0          NaN
4   Home Goods  Germany     80      1.000000         2.0           80.0
5  Electronics       UK     90      1.000000         2.0           90.0
6     Clothing   Canada     45     -1.000000         1.0           45.0
7   Home Goods  Germany     70     -1.000000         1.0           70.0

Viktig merknad: Fordi det ikke fantes et eksisterende gjennomsnitt for `USA`, er de resulterende verdiene i `Sales_Filled` `NaN`. Håndtering av slike grensetilfeller er avgjørende for pålitelig dataanalyse og bør vurderes under implementering.

Aggregering vs. Transformasjon: Viktige forskjeller

Mens både aggregering og transformasjon er kraftige GroupBy-operasjoner, tjener de ulike formål og har distinkte karakteristikker:

Utdataform: Aggregering reduserer datastørrelsen og returnerer en enkelt verdi for hver gruppe. Transformasjon bevarer den originale datastørrelsen og returnerer en transformert verdi for hver rad.
Formål: Aggregering brukes til å oppsummere data og få innsikt i gruppens egenskaper. Transformasjon brukes til å modifisere data innenfor grupper, ofte for standardisering eller normalisering.
Returverdi: Aggregering returnerer en ny DataFrame eller Series med de aggregerte verdiene. Transformasjon returnerer en Series med de transformerte verdiene, som deretter kan legges til som en ny kolonne i den originale DataFrame.

Valget mellom aggregering og transformasjon avhenger av dine spesifikke analytiske mål. Hvis du trenger å oppsummere data og sammenligne grupper, er aggregering det riktige valget. Hvis du trenger å modifisere data innenfor grupper samtidig som du bevarer den originale datastrukturen, er transformasjon det bedre alternativet.

Avanserte GroupBy-teknikker

Utover grunnleggende aggregering og transformasjon tilbyr Pandas GroupBy en rekke avanserte teknikker for mer sofistikert dataanalyse.

Anvende egendefinerte funksjoner med `apply()`

apply()-metoden gir mest fleksibilitet, slik at du kan anvende hvilken som helst egendefinert funksjon på hver gruppe. Denne funksjonen kan utføre enhver operasjon, inkludert aggregering, transformasjon eller til og med mer komplekse beregninger.

            
def custom_function(group):
    # Beregner summen av salg for hver kategori i en gruppe, kun hvis det er mer enn én rad i gruppen
    if len(group) > 1:
        group['Sales_Sum'] = group['Sales'].sum()
    else:
        group['Sales_Sum'] = 0  # Eller en annen standardverdi
    return group

df_applied = df.groupby('Country').apply(custom_function)
print(df_applied)

I dette eksemplet definerer vi en egendefinert funksjon som beregner summen av salg innenfor hver gruppe (land). apply()-metoden anvender denne funksjonen på hver gruppe, noe som resulterer i en ny kolonne som inneholder summen av salg for den gruppen.

Viktig merknad: apply-funksjonen kan være mer beregningsintensiv enn de andre metodene. Optimaliser koden din og vurder alternative implementeringer når du arbeider med massive datasett.

Gruppering etter flere kolonner

Du kan gruppere dataene dine etter flere kolonner for å skape mer detaljerte segmenter. Dette lar deg analysere data basert på skjæringspunktet mellom flere karakteristikker.

            
category_country_sales = df.groupby(['Category', 'Country'])['Sales'].sum()
print(category_country_sales)

Dette vil gruppere dataene etter både Category og Country, slik at du kan beregne totalsalget for hver kategori innenfor hvert land. Dette gir et mer detaljert bilde av salgsytelsen på tvers av ulike regioner og produktlinjer.

Iterering gjennom grupper

For mer kompleks analyse kan du iterere gjennom gruppene ved hjelp av en for-løkke. Dette lar deg få tilgang til hver gruppe individuelt og utføre egendefinerte operasjoner på den.

            
for name, group in df.groupby('Category'):
    print(f"Kategori: {name}")
    print(group)

Dette vil iterere gjennom hver produktkategori og skrive ut de tilsvarende dataene. Dette kan være nyttig for å utføre egendefinert analyse eller generere rapporter for hver kategori.

Beste praksiser for bruk av GroupBy

For å sikre effektiv og virkningsfull bruk av GroupBy, vurder følgende beste praksiser:

Forstå dataene dine: Før du anvender GroupBy, ta deg tid til å forstå dataene dine og identifisere relevante grupperingskriterier og aggregerings-/transformasjonsfunksjoner.
Velg riktig operasjon: Vurder nøye om aggregering eller transformasjon er det passende valget for dine analytiske mål.
Optimaliser for ytelse: For store datasett, vurder å optimalisere koden din ved å bruke vektoriserte operasjoner og unngå unødvendige løkker.
Håndter manglende verdier: Vær oppmerksom på manglende verdier i dataene dine og håndter dem på passende måte ved hjelp av metoder som fillna() eller dropna().
Dokumenter koden din: Dokumenter koden din tydelig for å forklare formålet med hver GroupBy-operasjon og begrunnelsen bak dine valg.

Konklusjon

Pandas GroupBy er et kraftig verktøy for dataanalyse, som gjør det mulig å segmentere dataene dine, anvende funksjoner på hver gruppe og trekke ut verdifull innsikt. Ved å mestre aggregerings- og transformasjonsteknikker kan du låse opp det fulle potensialet i dataene dine og få en dypere forståelse av de underliggende mønstrene og trendene. Enten du analyserer salgsdata, sensoravlesninger eller sosiale medieaktiviteter, kan GroupBy hjelpe deg med å ta datadrevne beslutninger og nå dine analytiske mål. Omfavn kraften i GroupBy og løft dataanalysekunnskapene dine til neste nivå.

Denne guiden har gitt en omfattende oversikt over Pandas GroupBy-operasjoner med fokus på aggregering vs. transformasjon. Ved å bruke disse teknikkene på internasjonale data kan datavitere over hele verden trekke ut avgjørende forretningsinnsikt på tvers av ulike datasett. Øv, eksperimenter og tilpass disse teknikkene til dine spesifikke behov for å utnytte Pandas' fulle potensial.

Mestring av Pandas GroupBy-operasjoner: Aggregering vs. Transformasjon

Forstå GroupBy-konseptet

Aggregering: Oppsummering av data innenfor grupper

Praktiske eksempler på aggregering

Eksempel 1: Beregning av totalsalg per kategori

Eksempel 2: Beregning av gjennomsnittlig salg per land

Eksempel 3: Bruk av flere aggregeringsfunksjoner

Eksempel 4: Egendefinerte aggregeringsfunksjoner

Transformasjon: Modifisering av data innenfor grupper

Praktiske eksempler på transformasjon

Eksempel 1: Standardisering av salgsdata innenfor hvert land (Z-score)

Eksempel 2: Beregning av salgsrangering innenfor hver kategori

Eksempel 3: Fylling av manglende verdier basert på gruppegjennomsnitt

Aggregering vs. Transformasjon: Viktige forskjeller

Avanserte GroupBy-teknikker

Anvende egendefinerte funksjoner med apply()

Gruppering etter flere kolonner

Iterering gjennom grupper

Beste praksiser for bruk av GroupBy

Konklusjon

Anvende egendefinerte funksjoner med `apply()`